【阿波罗名家谈】光伏大数据时代没有旁观者

Original 2016-06-23 阿波罗名家谈 阿波罗光伏云

人们经常探讨一个问题，科技对未来的影响有多大？互联网教父、科技商业预言家的凯文·凯利认为，不管你现在做什么行业，你做的生意都是数据生意。所有的东西都在我们的数据流里，有信息、有新闻。过去的关键词是项目，现在的关健词是数据。我们处于整个互联网新时代的第一天，此时此刻最重要的，就是如何通过数据来量化。
出场3分钟，德国”小猪”施魏因斯泰格触球3次、射门1次、进球1颗。跑动距离200公尺，其中50公尺在散步、50公尺在冲刺，100公尺在庆祝……在今年德国对阵北爱尔兰的欧洲杯小组赛后，网络上流出这样一组数据。据了解，类似这样的数据大多出自总部设在法国的数据公司SUP（Sport Universal Process）。在数据取样的比赛中，赛场内安装8部具有热成像功能的高级摄相机，并用这些摄像机记录比赛的全过程。摄像机拍录下的信息会被一套复杂的分析软件分解，而最终的结果就是客户看到的，详细无比的数据被分门别类地统计出来。通过对大量数据的整理和分析，我们发现，数据可以量化生活。而随着能源互联网、光伏等词在过去一两年的不断升温，光伏行业也开始热谈大数据。
那么，光伏到底是不是大数据？为什么需要大数据？到底应该怎么用大数据？如何从软件技术层面实现大数据？

一、为什么大数据知乎上有一句名言：所有跳过“是不是”直接问“为什么”的都是耍流氓。我们今天不打算耍流氓，所以首先来回答一下，光伏应用到底是不是大数据。 以阿波罗平台为例。假设现在接入了10GW装机容量的电站，会有多少数据呢？
阿波罗平台数据采集支持秒级采集，以平均5-10秒进行一次采集来计，每天会访问设备8640次。在集中式电站和分布式电站各占50%的情况下，总共约30万台设备需要接入（这些设备包括逆变器、汇流箱、气象站已经跟踪支架等等，但不包括高压侧的设备接入）。如此，每天将会产生6x60x24=8640次x30,0000台=2,592,000,000次的访问。每天接近26亿次的访问，平均每次访问460字节，那么一天总共会产生460 字节x 26 亿 = 1.2 T字节的数据。（这可是茫茫多的服务器和机柜啊！）以上只是10GW的情况。按照我国2020年规划的总装机容量100GW，这将是每天260亿次访问，每年累计数据量4PB！（这得多少块硬盘，多少个机房啊……小编都数不过来了！）当然，大小是相对而言的，单独看4PB这个数字，可能无法体会有多大。互联网应用是毫无争议的大数据场景，我们把这个数据和互联网数据做个对比。
某一线网络商城日均用户数约7000万，日总访问次数16亿，那么每年积累的用户数据为10PB左右；对比光伏，我们可以发现，虽然该网络商城的用户数是光伏设备的几十倍，但总访问次数，光伏反而是它的几十倍，总数据量可以说是一个量级的。

再对比一下近年来异常火爆的智能可穿戴硬件。以某一线厂牌手环为例，一年累计出货100万个手环，由于每5-20分钟才采集一次数据，日均记录条数约为7200万条，一年累计的数据量约2.6T。对比这些数据，光伏的设备数、日均访问、数据量均远远超出了该手环。而我们上面讨论到的光伏数据还只是中国市场，如果放眼全球，不敢想象！

所以答案是显而易见的，光伏应用当然是大数据，甚至可以说是巨数据，大到爆得数据，随便怎么形容都不为过。关于大数据应用的特征，学界一般定义为4个V： Volume（大量）、Variety（多样）、Velocity（快速）、Value（价值）。

大量，Volume。存储量大、计算量大；这是显而易见的，互联网和光伏都满足，不再复述。
多样，Variety。来源多、格式多；光伏需要接入各种设备的数据，而且全球成千上万的厂家，数据格式千差万别，绝对多样化。
快速，Velocity。增长速度快，处理速度快；不管是整个光伏行业还是阿波罗平台，当前都正在经历前所未有的跳跃式发展，场站、设备和数据都在飞快的增长，对系统实时采集、高速运算也提出了越来越高的要求。
价值，Value。所谓浪里淘沙弥足珍贵，不能产生价值的数据就是垃圾数据，再大，再多样，再快速都没有意义。

众所周知，大数据为互联网行业和互联网用户创造了巨大的价值，甚至产生了以数据为核心的诸多创新商业模式，那么光伏呢？大数据能为光伏带来什么？

我们来做个简单的类比。互联网应用收集人的数据，比如消费数据、地址信息、交友圈子等等，而光伏收集设备的运行数据，比如电流电压功率辐照；互联网应用通过用户数据分析用户喜好，做出行为模式的预测，由此衍生出推荐、广告、社交等一系列应用；而光伏通过分析设备的运行数据，包括实时的和长期历史的数据，结合天气数据，可以进行设备的状态预测、故障预测等后续应用，通过完善的后评估将整个运维过程从成本中心转变为利润中心，进而为项目开发、投资、采购、建设等其其他几个环节提供数据支撑和决策依据；互联网应用通过用户的过往消费记录和行为习惯来为用户征信，给用户的信用评级，比如蚂蚁金服下的芝麻信用，而远景推出的阿波罗评级产品正是通过项目的关键信息为项目建立了一个信用评级档案，从未出生开始，开发设计融资EPC运行甚至售出，在全生命周期里持续采集数据，持续分析，持续评分评级，真正为客户管理风险，创造价值。由此可见，光伏应用是大数据，也必须用大数据，而大数据也切切实实能为光伏行业创造巨大的价值。阿波罗平台的大数据团队已经识别出来几个非常适合大数据切入的点，深入研究，并且已经陆续发布交付给用户。电量损失分析，智能清洗策略，投资策略风险管控，设计方案持续优化等等，后续还有更多围绕大数据的高级应用将逐步推出。
二、怎么用大数据下面我们通过一个实际的例子，来看看大数据是怎么应用到光伏领域的。
对于光伏电站来说，光伏清洗一直是一个老大难问题。到底多久洗一次合适、洗了能带来多少收益、是不是不洗反而更合算，这几个问题一直困扰着整个光伏行业。特别是在我们中国这样污染比较严重的地方，精确评估灰尘带来的损失是一个多年的痛点。
信息简史里曾说过，信息分四个层级，数据、信息、知识、智慧。四个层级依次上升，原始的数据清洗后留下有用的变成信息，信息抽象沉淀下来变成知识，知识形成闭环产生action叫智慧。那么在智能清洗这件事情上，最终的清洗策略，显然是智慧。为了得到策略，得先有知识去分析损失，去分析到底应该发多少电。
1清洗策略一个理想的清洗策略需要什么？我们下面以终为始，从结果出发。

以上是工业上最常用的一张图，用来衡量维护频率、维护成本以及收益的关系。将其应用到光伏领域，横坐标是清洁频率，纵坐标是总损失电量。有这么三条曲线：清洗的越频繁，灰尘损失就越少；但是清洗的越频繁，清洗的成本就越高，两项相加，总的损失就应该是图中第一条“总损失”曲线，最低的点就是理论上的最优解。第三条是“灰尘损失”，能精确地衡量灰尘带来的损失。
2
损失分析以阿波罗平台实际评估的一个项目为例来进行损失分析。

多数专家都很熟悉Pvsyst的损失瀑布图。Pvsyst根据经验参数给出来的灰尘损失是3.2%。而实际上，经过大数据做出的损失分析，这个场站的灰尘损失实际上是1.75%，相差将近一倍。在阿波罗已经分析的几百个场站里，实测与理论预估值的差距最大会高达5倍，有的灰尘影响极大，吃掉了超过10%的发电量，而有的非常干净，完全没必要清洗。

要理解上图，我们需要先看下面两条曲线：下边蓝色这条是实际功率曲线，上边橙色的这条是应发功率曲线。值得注意的是，这里说的应发功率，并非理论应发，而是实际应发，即这个场站在这个设计方案下，在实际的建设情况、实际的设备运行情况下，最好应该发多少。其中已经刨除了设计的不合理、建设施工的不合理以及设备和接线等固有的损失，纯粹的衡量在运维的最完美的情况下应该发多少电。

从这两者的差距可以看到，在大多数时间段内，有着几乎恒定的差异，这就是灰尘带来的损失。陡降的部分，则可能是设备故障或阴影遮挡。结合当天的历史记录，系统自动分析出来这段应该是阴影遮挡所致。基于实际发电量和实际应发电量这两个指标，阿波罗光伏提出了EBA的概念，即能量可利用率（Energy Based Availablity）= 实际发电量/实际应发电量，以此来精准的衡量实际运维阶段的运行效率以及运维情况。
3
如何得到应得发电量 在这里，我要隆重请出大数据的关键技术：机器学习。
在机器学习的整个过程里，最关键的两步是一头一尾。总的逻辑是我们需要在以往成千上万个数据点中，找到每一种情况下该场站发电的合理最优点。也就是说在每个辐照、每个温度下，看看这个场站到底最多能发多少。基于此逻辑找出一批数据，自动清洗之后作为训练集，基于神经网络算法训练出一个模型，再用后续一段时间的数据作为校验集，验证和调优模型，最终得到该场站的应发电量模型，进而可以在将来的每个时刻得到该点的实际应发电量。应发电量准确计算出来后，我们得到了EBA（能量可利用率），下图就是我们在实际工作过程中生成的一条EBA曲线。

该功能已经在阿波罗光伏云平台正式发布，并陆续交付给具备运算条件的部分用户使用。
4

如何通过大数据来制定清洗策略

实时数据采集得到了原始数据，经过数据清洗后得到了信息，机器学习和EBA计算使得我们从信息里提炼出了知识，可以制定出关键的KPI。终极的智慧就是通过损失分析和智能清洗策略形成了闭环，当然还需要再补充进去气象的预测特别是短期中短期天气预测。

如图，这个金字塔状的信息层级，不仅仅是这个case的实现逻辑，更是可以高度概括所有大数据机器学习的过程。

气象大数据

除了电站运行的大数据以外，我们还要请出另一位大数据的小伙伴——气象大数据。光伏发电在一定程度上是“靠天吃饭”，对辐照、温度、湿度、风速等气象要素建立大数据模型对光伏发电具有重要的意义。
基于阿波罗大数据云平台的大数据支持，我们对实际的数据观测进行分析发现，目前光伏电站广泛使用的NASA数据和一些国外的付费数据，因为大多使用的是卫星数据，和地面实际观测值之间的差异很大。尤其在我国中东部阴雨天较多的地区，卫星观测的云上数据往往要高于实测数据15-25%，这一差异不得了，对项目经济性评价的影响可能超过20%。
气象数据是真正的大数据，具有分布范围广、采集要素多、采集频率高、连续性强、数据来源多等特点。针对光伏行业最常用的数据来源，阿波罗的气象大数据整合了五层数据，包括：公开气象卫星数据、欧美及国内第三方气象数据库、中国国家气象局数据（全国2400个点）、远景地面气象站实例数据（覆盖全国的采集点）、远景阿波罗光伏云监控电站发电数据等。
阿波罗的气象大数据不仅是多数据源的整合，更结合了统计学算法、资料深度同化、气象物理模型建模等演算方法，得到超高精度超小网格的数据气象模型，由此提供更精确的地面实际观测辐照及其他要素数据，可以用来支持更优质的光资源评估和短期超短期气象预报服务。既能为项目开发及投资提供可靠依据，也能帮助现场更合理的安排运维计划。
阿波罗的气象大数据还是独一无二的动态数据库。基于阿波罗光伏云的大数据平台，使用电站的实际运行数据对气象数据的准确性进行验证和反向补充，不仅提供数据的可信度，还能进一步对数据进行持续动态的优化。

三、如何实现大数据通过上述几个case，大家应该初步能感受到大数据能给我们带来什么。那么问题来了，要如何来实现大数据运算呢？

最早，我们搭建了一套比较简单的机器学习框架，没做任何优化。在16核32G的服务器上，进行一轮500个设备数据的机器学习训练和调优模型，大约需要4小时；30万个设备进行同样的运算需要超过100个小时。显然这样的平台性能无法满足光伏如此海量数据的实时运算需求。这说明传统的软件和系统架构已经无法满足这样的需求，那么该怎么办呢？首先，我们可以暴力提升单台服务器的性能，也可以借助超算中心的超强计算能力，还可以借助云平台易于平行扩展集群的优势。但这三种方法都是外力，真正核心的是练好内功，设计出一个合理的可自我生长的架构。

但这三项都是前提，只做到这三项是远远不够的。最核心的，还是需要有一个合理的架构。值得注意的是，这里说的是合理，不是完美。不存在完美的架构，合理的，适合业务场景的，可以随着业务发展的才是我们追求的架构。回到互联网，我们可以从下图看到2007-2012年间某一线网络商城的架构演变：业务需求、数据量、资源这三者螺旋上升，相互促进。这三个要素能和谐满足的核心，就是这套可以自己生长和进化的数据处理架构。

以史为鉴，阿波罗平台构建了全新的、为光伏和能源互联网量身打造的大数据平台架构。这个大数据平台分为上中下三层。

1）底层的数据层，对设备透明，打通了结构化和非结构化数据，让所有的实时流数据一个字节不差的保存到云端。
2）存储计算平台是支持无极扩展的平台设计，随时根据业务的发展需求自动伸缩，通过数据挖掘和分布式计算框架把机器学习可以开放的数据服务，将来可以有越来越多的合作伙伴基于这套框架，与我们一起进行大数据算法研究和应用。
3）持久化层为越来越庞大的开发生态系统构建了通道，让开发者们可以用任何一种成熟的技术来轻松开发基于大数据的应用。
此外，阿波罗平台会持续的在平台和数据层面两个层面开放。
责任编辑：郑颖

推荐阅读： 点击下方图片即可阅读

【阿波罗名家谈】你是电，你是光，你是阴影状态下的算法……

中国分布式光伏市场发展迎来拐点，阿波罗产品破局投融资困境

【阿波罗名家谈】降低度电成本，有那么难吗？

女人不管有钱没钱，都别买这3类外套，不仅臃肿显胖，看着还廉价

广州知名企业被“围猎”，详情曝光，针对企业的“远洋捕捞”令人不寒而栗！

因财政没钱，一些地方开始“诱捕”长三角、珠三角有钱人！

买美容仪送爱马仕“菜篮子”手袋？极萌双十一新品激进营销惹争议

赛力斯处罚“520计划”泄密者涉嫌违法